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基于 一 种 改进 Inception 的 脱 机 手写 汉字 识别 
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(广东 工业 大 学 计算 机 学 院 ,广州 市 510000) 


摘 要 : 由 于 字形 的 复杂 多 变 ， 脱 机 手写 汉字 的 识别 一 直 是 模式 识别 的 难题 ， 深 度 卷 积 神经 网 络 的 发 展 为 其 提供 了 

一 种 直接 有 效 的 解决 方案 。 研 究 基 于 inceptions 结构 神经 网 络 的 脱 机 手写 汉字 识别 ,提出 了 一 种 inception 结构 的 改进 

a 它 具 有 结构 更 加 简单 、 网 络 深度 扩展 更 加 容易 、 需 要 的 训练 参数 量 更 少 。 该 方法 在 数据 集 CISIA-HWDB1.1 上 
行 了 实验 验证 ， 采 用 随机 梯度 下 降 优 化 算法 ， 模 型 达到 了 96.95% 的 平均 准确 率 。 实 验 结果 表明 ， 使 用 改进 的 

ee 结构 在 图 像 分 类 上 具有 更 好 的 鲁 棒 性 ， 更 容易 扩展 到 其 他 应 用 领域 。 

关键 词 : 脱 机 手写 汉字 ; 卷 积 神经 网 络 ; inception 

中 图 分 类 号 : TP391.43 doi: 10.19734/j.issn.1001-3695.2018.09.0784 


Offline handwritten Chinese character recognition based on improved inception 


Chen Zhan, Qiu Weigen, Zhang Lichen 
(School of Computers Guangdong University of Technology, Guangzhou 510006, China) 


下 Abstract: Due to the complexity and variety of glyphs, offline handwritten Chinese character recognition has always been a 
difficult problem of pattern recognition. The development of deep convolutional neural networks provides a direct and 
二 effective solution to this problem. This paper studied offline handwritten Chinese character recognition based on Inceptions 
外 neural network.It proposed an improved Inception structure, which took the advantages of Simpler structure, easier network 
depth expansion and less training parameters. The method used the proposed structure to verifiy on dataset 
CISIA-HWDB1.1. The model achieved an average accuracy of 96.95%, by using stochastic gradient descent optimization 
algorithm. Experimental result shows that the Improved Inception Structure has better generalization performance and 
所 robustness in image classification, and can be easily extended to other applications. 
OO) Key words: offline handwritten Chinese characters; convolutional neural network; inception 


多 0 引言 只 别 问 题 重要 工具 。 文 献 [10,11] 研 究 基于 CNN 的 HCCR 方 
ro 号 在 CASIA-HWDB1.0 和 CASIA-HWDB1.1 上 都 取得 不 错 
自 20 世纪 80 年 代 以 来 , 手写 汉字 识别 (handwritten 的 结果 。CNN 网 络 结构 复杂 ,全 连接 层 的 优化 需要 庞大 的 训 
; chinese character recognition, HCCR) 一 直 是 模式 识别 的 一 个 练 数据 和 计算 量 。 更 高 的 准确 率 意 味 着 更 大 的 CNN 网 络 的 
二 重要 研究 领域 ， 也 是 该 研究 的 难点 之 一 山 。 手 写 汉字 识别 的 深度 。 同 时 为 了 抵消 其 中 必然 出 现 的 梯度 消失 和 梯度 爆炸 的 


| 


> 二 大 、 字 体 结构 复杂 、 字 形变 化 多 、 负面 影响 ， 网 络 需要 有 更 复杂 的 结构 。 
书写 风格 多 样 ， 特 别 是 大 量 相似 汉字 的 存在 ， 使 得 它们 之 间 文献 [8,12~14] 提 出 了 一 种 Inception 结构 ， 并 应 用 于 
的 差别 极 细微， 例如 ， “已 -已 关口 -口交 泪 - 泪 - 泪 ? 等 ， 这 些 。 HCCR。Inception 结构 有 更 小 的 参数 量 和 更 好 的 鲁 棒 性 。 但 
高 度 相 似 的 字符 给 计算 机 自动 识别 带 来 极 大 挑战 外。 是 ，Inception 仍然 结构 复杂 ， 难 以 闭 加 很 深 的 网 络 深度 站。 
经 过 多 年 来 研究 人 员 的 不 懈 努 力 ，HCCR 取得 了 极 大 进 ” 本 文 提出 了 一 种 基于 改进 Inception 结构 的 CNN 网络 , 为 了 


展 。 文 献 [3] 中 使 用 鉴别 特征 提取 方法 (discriminative feature 叙述 方便 ， 本 文 暂 称 之 为 Joint-Net。Joint-Net 不 仅 具 备 了 
learning，DFE) 和 鉴别 学 习 二 次 判决 函数 〈discriminative Inception 泛 化 性 能 好 、 参 数量 小 的 优点 。 它 在 从 内 部 加 深 网 
learning quadratic discriminant function ，DLQDEF ) 分 类 器 , 在 络 ， 提 升 网 络 性 能 的 同时 ， 不 会 产生 梯度 消 失 和 梯度 爆炸 的 
脱 机 手写 体 汉 字数 据 集 CASIA-HWDB 的 几 个 不 同 子 集 上 ， 岗 象 。 本 文 的 实验 表明 ， 它 不 仅 具 有 比较 高 的 平均 准确 率 ， 
取得 的 最 好 识别 率 分 别 是 94.20% (DB1.0)、92.08%(DB1.1) 而 且 容 易 扩展 到 其 他 应 用 领域 。 
和 92.72% (ICDAR 2013 Competition DB)。 、 
近年 来 ， 深 度 学 习 逐 渐 获 得 了 学 术 界 及 工业 界 的 广泛 重 1 ”相关 工作 
， | 图 像 识 别 领 域 得 到 了 极其 成 功 的 应 用 ， Inception 首次 提出 于 GoogleNet 中 由 ，2014 年 Imagenet 
给 手写 汉字 识别 难题 带 来 了 新 的 活力 和 一 些 极其 有 效 的 解 竞赛 上 ，22 层 的 GoogleNet 取得 了 冠军 ， 在 ImageNet 数据 
决 方法 。 典 | 吉 构 包括 : 深度 置信 网 络 (DBN)、S ” 集 上 Top5 错误 率 达 到 6.67% ,文献 [13] 提 出 了 Inception 的 第 
层 著 自动 编码 机 (SAE)、 卷 积 神经 网 络 (CNN)、 回 归 神 经 网 络 。 二 个 版 本 ， 加 入 了 BN (batch normalization，BN) 层 ， 使 得 
(RNN) 等 。 近 几 年 , 深度 卷 积 神经 网 络 的 研究 在 图 像 分 类 上 ” 模型 在 ImageNet 数据 集 上 错误 率 降低 为 4.9%。 文 献 [12] 提 出 
取得 了 一 系列 的 突破 性 的 进展 [9, 成 为 了 解决 脱 机 手写 汉字 了 Inception 的 第 三 个 版 本 ，Inception v3 中 ，nxn 的 卷 积 核 
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被 拆 分 成 nx1 和 1xn 两 种 卷 积 核 ， 降 低 网 络 参 数量 的 同时 ， 
提升 了 网 络 的 识别 效果 ， 在 ImageNet 数据 集 上 的 Top5 错误 
率 降低 为 3.5%。 文 献 [1 和 结合 了 ResNet 外 网 络 结构 并 丰富 
Inception 结构 ， 在 ImageNet 数据 集 上 实现 了 3.08% 的 Top5 
普 误 率 。JInception 的 提出 与 改进 大 大 提升 了 深度 CNN 网 络 
的 识别 性 能 。 1x3 | 3x1 it :ui [Uni nit > 


Inception 结构 的 成 功 ， 得 益 于 大 量 使 用 1xl 的 卷 积 核 和 


Filter Concat Filter Concat 


多 层次 的 特征 传输 。 典 型 的 Inception 结构 如 图 1 所 示 。 图 1 

Inception 结构 中 ，1x1 的 卷 积 核 在 仅仅 增加 很 小 计算 量 和 参 Base 

数量 的 情况 下 ， 能 够 增加 网 络 的 深度 ， 并 改变 特征 数量 ， 起 (Vo (b) 改进 的 Inception 结 构 

到 升 维 或 者 降 维 的 作用 。 另 外 ，Inception 结构 包含 了 深度 为 图 2 改进 的 Inception 结构 

5，3，2，1 卷 积 层 堆 一 的 子 网 络 ， 深度 为 5 的 子 网 络 大 幅 增 Fig.2 Improved Inception structure 

加 了 网 络 的 深度 ， 而 深度 为 1 的 子 网 络 让 特征 能 更 快 到 达 下 图 2(b) 中, 除了 第 一 个 Unit 的 输入 是 来 自 Base 之 外 ， 
一 个 Inception 结构 , 缓解 了 网 络 深度 增 大 引起 的 梯度 消失 和 每 个 Unit 结构 的 输入 都 是 Base 和 上 一 个 Unit 结构 按 通 道 # 
梯度 爆炸 现象 。 不 同 深度 的 子 网 络 提供 了 不 同 层 次 的 特征 ， 接 的 结果 。 除 了 最 后 一 个 Unit 的 输出 仅仅 直接 传 向 1x1 卷 积 


这 提升 了 网 络 对 尺度 的 泛 化 性 能 。 层 之 外 , 每 一 个 Unit 结构 的 输出 都 复制 一 份 传 给 下 一 个 Unit 
结构 。 改 进 的 Inception 结构 保留 了 Inception 的 优点 ， 增 强 
了 网 络 对 尺度 的 适应 性 ， 并 使 琶 加 网 络 深 度 变 得 十 分 方便 。 
2.2 全 卷 积 的 分 类 模块 

深度 卷 积 神经 的 输出 层 采用 独 热 码 (One hot code) 对 类 
别 进行 编码 。 设 分 类 类 别 数 是 N ， 类 别 标签 是 n ， 则 对 应 的 
编码 为 


潭 


A =(0,0,.…,0,1,0,.……,0) 


1l, i=n 


oh: 4 全 izn 
由 于 输出 层 采用 独 热 码 的 编码 方式 ， 输 出 层 的 人 工 神经 
元 个 数 和 类 别 数 相同 ， 这 导致 每 层 全 连接 层 参数 量 的 空间 
杂 度 是 0(2) 。 例 如 ， 考 虑 一 级 常用 汉字 3755 个 类 别 ， 全 
接 层 输入 神经 元 和 输出 神经 元 数 都 是 3755 个 , 每 个 参数 占 
4B 空间 ， 则 输出 层 全 连接 层 占用 107MB 以 上 的 空间 。 而 
际 应 用 中 ， 网 络 可 能 需要 多 层 全 连接 层 提 升 识别 效果 ， 每 
图 1 杂 的 Inception 结构 全 连接 层 的 参数 量 也 会 更 大 。 
Fig. 1 Complex Inception structure 本 文 使 用 卷 积 层 代 替 全 连接 层 进 行 分 类 。 以 《特征 图 个 
Inception 结构 复杂 不 利于 堆 著 很 深 的 网 络 ， 而 在 梯度 消 数 ， 特 征 图 高 ， 特 征 图 宽 ) 表示 特征 图 的 形状 ， 分 类 类 别 数 
失 和 梯度 爆炸 现象 未 发 生 时 ， 更 深 的 网 络 往往 有 更 好 的 表现 为 n, 设 最 后 一 层 卷 积 层 特征 图 的 形状 是 (C,H,W), 则 全 连接 
司 时 保留 了 层 表示 的 分 类 层 参 数 个 数 为 


秋 将 末 晴 痪 


ps。 本 文 对 Inception 结构 进行 简化 改进 ，| 
Inception 的 优点 ， 使 得 网 络 深度 的 拓展 更 加 容易 ， 同 时 能 提 P. =2nCHW 
升 网 络 表 现 。 基 于 改进 的 Inception 结构 ， 本 文 提出 Joint-Net 而 采用 卷 积 层 作 为 分 类 层 ， 要 求 卷 积 层 的 输出 特征 图 形 


网 络 .Joint-Net 大 量 使 用 改进 的 Inception 结构 堆 登 网 络 深度 ， ” 状 为 (c,h,w) ， 其 中 ， 调 整 以 使 n=chw 。 则 以 卷 积 层 作为 分 
并 去 除了 最 后 的 全 连接 层 ， 提 升 了 网 络 的 识别 性 能 的 同时 ， 类 层 的 参数 个 数 为 


避免 了 网 络 的 参数 量 随 类 别 数 大 幅 增 加 的 情况 。 Po =2n 
所 以 ， 一 层 全 连接 层 构成 分 类 层 的 参数 量 是 卷 积 层 构 成 
四 士 
2.1 改进 的 Inception 结构 由 单 层 卷 积 层 取 代 全 连接 构成 输出 层 会 导致 网 络 的 识别 


会 
如 图 2 所 示 ，(a) 中 Unit 结构 由 1x3 卷 积 核 和 3xl 卷 积 性 能 有 所 下 降 , 而 Joint-Net 对 卷 积 层 进行 多 层 
核 的 卷 积 层 组 成 ， 两 个 卷 积 的 输出 按 通 道 拼接 一 起 作为 Unit ” 整 ， 使 得 采用 卷 积 层 作 为 输出 层 时 ， 分 类 性 能 
的 输出 。Unit 结构 用 于 取代 3x3 卷 积 核 的 卷 积 层 ， 以 便于 保 用 全 连接 层 同样 的 效果 。 
留 Inception 结构 较 小 参数 量 的 优点 。 图 2 (b) 就 是 改进 后 。” 2.3 Joint-Net 网 络 搭建 
的 Inception 结构 。 设 Unit 的 个 数 为 N, 一 方面 ，(b) 结构 改进 的 Inception 结构 在 搭建 网 络 的 时 候 十 分 方便 。 只 需 
中 包含 了 深度 为 N, N-1, .… ,1 的 子 网 络 ， 保 留 了 Inception 对 要 多 个 改进 的 Inception 结构 直接 又 加 即 可 完成 网 络 的 主体 
尺度 的 适应 性 。 另 一 方面 ， 对 于 每 一 个 Unit， 都 有 来 自 Base 部 分 。 如 图 3 所 示 ，1xl 卷 积 核 的 卷 积 层 在 网 络 结构 上 起 衔 
的 输入 和 到 下 一 层 的 直接 输出 ， 这 种 结构 能 有 效 避 免 梯度 消 接 作 用 ， 本 文 称 之 为 关节 (joint)。 在 Inception 内 部 做 池 化 
失 和 梯度 爆炸 现象 ， 因 此 ， 在 理想 情况 下 ， (b) 结构 的 深度 处 理 是 不 方便 的 , 所 以 在 joint 中 加 入 了 可 选择 的 池 化 层 ， 当 
是 可 以 非常 深 的 。 最 后 ，(b) 所 有 Unit 的 输出 按 通道 拼接 需要 进行 池 化 时 ， 在 joint 中 进行 池 化 。 
后 作为 1x1 卷 积 核 的 输入 , 和 Inception 结构 一 样 利用 了 1x1 卷 为 使 网 络 模型 能 有 更 好 的 表现 , 本 文 将 BN 层 和 Relu 
积 核 的 优点 。 加 入 了 unit 和 joint， 并 将 maxpool 层 加 入 到 joint 模块 。 
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时 , 由 于 全 部 使 用 1x3 和 3xl 的 卷 积 核 组 合 代 蔡 3x3 卷 积 核 的 在 训练 时 对 样本 进行 了 数据 增强 ， 包 括 边 界 填 充 4 个 0 
效果 并 不 好 ， 在 加 入 3x3 卷 积 核 后 ， 效 果 优 异 ， 所 以 卷 积 核 像素 ， 随 机 剪 切 为 32x32 大 小 ， 随 机 水 平 翻 转 ， 归 一 化 。 
增加 了 3x3 的 选择 ， 方 便 灵 活 调整 网 络 ， 提 高 网 络 性 能 。 详 表 1 网 络 结构 
细 的 unit 和 joint 设计 如 图 4 所 示 。 Table 1 Network structure 
i Unit 数量 卷 积 核 大 小 输入 通道 /Unit 输出 通道 /Unit 池 化 层 
ee De Joint0 1 1x1 1or3 32 
外 Unitsl 6 3x3 32 32 
| 本 Jointl 1 1x1 32 64 MaxPool 
| jt 1 Nointl Jointn ee Unis2 6 3x3 64 64 
Input 可 | ee {) Gata Joint2 1 1x1 64 96 > 
Units3 6 3x3 96 96 : 
| Joint3 1 1x1 96 128 MaxPool 
Units4 6 3x3 128 128 
Joint4 1 1x1 128 160 3 
Units5 6 3x3 160 160 - 
图 3 Joint-Net 结构 Joint5 1 1x1 160 192 MaxPool 
Fig.3 Joint-Net structure Units6 6 3x3 192 192 - 
Joint6 1 1x1 192 224 
Joint Units7 6 3x3 224 224 E 
Cn Joint7 1 1x1 224 512 MaxPool 
Conv* 1 1x1 512 N/(2x2) 
or 3x3 Maxpool 5 展示 了 Joint-Net 在 CASIA HWDB1.1 训练 集 和 测试 
集 上 的 训练 情况 。 在 图 5 中 ，Joint-Net 在 CASIA HWDB1.1 
BatchNorm 的 训练 集 上 进行 训练 ， 在 CASIA HWDB1.1 测试 集 上 进行 测 
试 。 可 以 看 出 ， 在 每 次 学 习 率 衰减 时 ， 准 确 率 都 有 明显 的 提 
高 ， 最 终 网 络 收敛 。 实 验 结果 与 其 他 网 络 模型 结果 的 对 比如 


表 2 所 示 ， 其 中 ， 带 “*” 的 表示 文献 没有 单独 在 CASIA 
HWDB1.1 数据 集 上 进行 训练 ， 本 文 复 现实 验 取 得 的 结果 。 


(a) Unit (b) Joint 0 
图 4 Unit 与 Joint 的 详细 结构 凡 
Fig.4 Detailed structure of Unit and Joint 90 
六 
热 4 
| 为 验证 Joint-Net 模型 在 脱 机 手写 汉字 识别 上 的 有 效 性 ， Od TI 
本 文 实验 选取 了 较为 大 型 的 CASIA-HWDB1.1 数据 集 。 脱 机 er 0 
手写 汉字 集 CASIA HWDB1.1 包括 了 3755 个 GB2312-80 一 人 Testtop5 
级 常用 汉字 。 其 中 ， 训练 集 240 人 手写 ， 测试 集 ! 60 人 和 手 5 7 9 11131517192123252729313335373941434547495153555759 
写 ， 共 计 1121749 个 样本 ， 属 于 大 规模 模式 识别 样本 集 。 本 人 
文 将 数据 集中 的 所 有 图 片 缩小 为 32x32 进行 识别 实验 。 图 5 Joint-Net 网 络 模 型 准确 率 变化 过 程 
本 文 所 有 实验 均 采 用 Pytorch 0.4 在 Windows10 64 位 系 Fig.5 Joint-Net network model accuracy rate change process 
统 上 编写 及 运行 代码 ， 实 验 硬件 环境 均 为 CPU INTER i7 由 于 去 除了 全 连接 层 , 尽管 Joint-Net 网 络 有 更 深 的 卷 积 
6700K 4.0GHZ, RAM DDR4 8G, GPU GTX1080 8G。 层 数 ， 样 本 集 的 类 别 多 达 3755 个 ， 模 型 的 参数 量 仍然 很 小 ， 
为 了 验证 Joint-Net 的 性 能 , 本文 在 CASIA HWDB1.1 上 而 且 参 数量 不 会 随 类 别 的 增加 迅速 增 大 。 同 时 模型 有 更 好 的 
做 了 大 量 重 复 实 验 。 实 验 采 用 相同 的 网 络 结构 ， 共 县 加 了 7 ”和 鲁 棒 性 和 泛 化 能 力 ， 在 CASIA HWDB1.1 数据 集 上 比 文献 
个 改进 的 Inception 结构 ，8 个 关节 ， 和 1 个 卷 积 层 。 网 络 结 [10,11] 的 结果 有 显著 的 提升 。 

构 如 表 1 所 示 ， 其 中 Units 表示 相应 的 Inception* 中 的 Unit 为 验证 Joint-Net 的 实用 性 , 本文 将 Joint-Net 网 络 应 用 于 
部 分 ，Conv* 层 表示 带 Dropout 层 的 卷 积 层 ， 用 作 分 类 。 汉字 字幕 提取 系统 ， 达 到 了 很 高 的 识别 率 ， 表 明 Joint-Net 适 
本 文采 用 的 训练 策略 为 : 宜 在 实际 系统 上 取得 应 用 。 汉 字 字 幕 提取 模型 图 6 所 示 。 

a) 训练 轮 数 为 60; 图 6 中 , 先 由 预 训练 好 的 Joint-Net 模型 对 带 有 汉字 字幕 
b) 批 大 小 为 128; 的 图 片 进 行 处 理 , 得 到 包含 3756 个 类 别 得 分 (包含 1 个 背景 
c) 学 习 率 调整 策略 : 初始 学 习 率 lr = 0.1，20 轮 衰 减 为 类 别 和 3755 个 常用 汉字 类 别 )。 由 于 不 关注 字幕 的 位 置 ， 仅 
0.02，40 轮 衰减 为 0.004，50 轮 衰 减 为 0.0008; 提取 字幕 信息 , 所 以 没有 进行 坐标 回归 。 图 6 中 , 为 说 明 Infer 
d) 权重 衰减 weight decay = 0.0005; 的 过 程 ， 记 Class scores 为 张 量 X，Class map 为 张 量 Y， 


e) 梯度 下 降 : nesterov 加 速 的 sgd 算法 ，momentum 为 maxpool 是 尺寸 为 3x3 ， 步 幅 为 1 的 最 大 池 化 操作 ，argmax 
0.9。 为 求 取 像素 点 最 大 值 所 在 通道 的 操作 ， 则 Infer 过 程 为 
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X* =maxpool(X) 
Y=argmax (relu(X—X’)) 
于 图 6 中 Infer 操作 对 类 别 得 分 取 的 是 局 部 的 最 大 值 ， 
相当 于 进行 了 多 次 投票 得 出 的 类 别 ， 准 确 率 比 单一 汉字 识别 
要 高 。 但 是 II es 
速度 有 所 降低 。 采 用 图 6 的 模型 ， 在 200 张 包含 汉字 的 实际 
视频 截取 视频 帧 中 的 测试 中 , 召 er 98.9%, 
准确 率 (accuracy) 为 98.4%， 速 度 为 14 张 /s。 
表 2 Joint-Net 模型 在 CASIAHWDB1.1 上 的 
准确 率 与 其 他 网 络 模型 的 对 比 
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图 6 ”使 用 Joint-Net 的 汉字 字幕 提取 系统 模型 
Fig.6 Using the Chinese character subtitle extraction System model of 
Joint-Net 


4 ”结束 语 


实验 结果 显示 ,Joint-Net 在 包含 3755 个 类 别 的 脱 机 手写 
汉字 集 CASIA HWDB1.1 上 达到 了 公开 报告 的 单 模型 的 最 佳 
成 绩 。 这 表明 Joint-Net 是 一 种 学 习 能 力 强大 且 鲁 棒 性 和 泛 化 
能 力 优异 的 卷 积 神经 网 络 结构 。 其 独特 的 单元 层 和 关节 ， 能 
有 效 的 增加 网 络 的 深度 ， 并 提升 网 络 的 鲁 棒 性 和 泛 化 能 力 ， 
使 网 络 更 容易 的 达到 更 好 的 结果 。 实 验 中 ， 在 实际 汉字 字幕 
提取 系统 中 的 成 功 应 用 表明 Joint-Net 模 型 具有 一 定 的 实用 价 
值 。 由 于 Joint-Net 结构 简单 的 特性 ， 能 够 很 容易 的 将 网 络 模 
型 压缩 算法 中 全 应 用 到 模型 中 ， 这 将 是 对 Joint-Net 进一步 研 
究 的 方向 。 


参考 文献 : 


[1] 赵 继 印 , 郑 莫 茯 , 吴 宝 春 , 等 . 脱 机 手写 体 汉 字 识 别 综述 [加 . 电子 
学 报 , 2010, 38 (2): 405-415. Wn Jiyin, Zheng Ruirui, Wu Baochun, 


et al. A review of offline handwritten Chinese character recognition [J]. 
Acta Electronica Sinica, 2010, 38 (2): 405-415. ) 

[2] 金 连 文 , 钟 车 炊 , 杨 钊 , 等. 深度 学 习 在 手写 汉字 识别 中 的 应 用 综述 
[四 .自动 化 学 报 ，2016，42 (8): 1125-1141. (Jin Lianwen, Zhong 
Zhuoyao，Yang Zhao, et al. Applications of deep Learning for 
handwritten Chinese character recognition: 


Automatica Sinica, 2016, 42 (8): 1125-1141. ) 


a review [J]. Acta 


等 : 基于 一 种 改进 Inception 的 脱 机 手写 汉字 识别 


(hinaXi 合作 
CNINAIV 上 


第 37 卷 第 4 期 


[3] Liu Chenglin，Yin Fei, Wang Dahan, et al. Online and offline 
handwritten Chinese character recognition: benchmarking on new 
databases [J]. Pattern Recognition, 2013, 46 (1): 155-162. 

[4] LeCun Y Boser B, Denker J S$, et al. Backpropagation applied to 
handwritten zip code recognition [J]. Neural computation, 1989, 1 (4): 
541-551. 

[5] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to 
document recognition [J]. Proceedings of the IEEE, 1998, 86 (11): 
2278-2324. 

[6] Simonyan K, Zisserman A. Very deep convolutional networks for 
large-scale image [EB/OL].(2015-04-10). 


https://arxiv.org/abs/1409.1556. 


recognition 


[7] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classifica-tion with 
deep convolutional neural networks [C]// Advances in Neural 
Information Processing Systems. 2012: 1097-1105. 

[8] Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with 
convolutions [Cl]// Proc of IEEE Conference on Computer Vision and 
Pattern Recognition. Washington DC:IEEE Computer Society,2015: 
1-9. 

[9] He Kaiming, Zhang Xiangyu, Ren Shaoqing，e al. Deep residual 
learning for image recognition [C]// Proc of the IEEE Conference on 
Computer Vision and Pattern Recognition. Washington DC:IEEE 
Computer Society,2016: 770-778. 

[10] Zhang Xuyao, Bengio Y, Liu Chenglin. Online and offline handwritten 
Chinese character recognition: a comprehend-sive study and new 
benchmark [J]. Pattern Recognition, 2017, 61: 348-360. 

[11] Xiao Xuefeng, Jin Lianwen, Yang Yafeng, et al. Building fast and 
compact convolutional neural networks for offline handwritten Chinese 
character recognition [J]. Pattern Recognition, 2017, 72: 72-81. 

[12] Szegedy C, Vanhoucke V，Ioffe S, et al. Rethinking the Inception 
architecture for computer vision [C]/ Proc of IEEE Conference on 
Computer Vision and Pattern Recognition. Washington DC:IEEE 
Computer Society,2016: 2818-2826. 

[13] Ioffe S$, Szegedy C. Batch normalization: accelerating deep network 
training by reducing internal covariate shift [Cl]//Proc of International 
Conference on Machine Learning. 2015: 448-456. 

[14] Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, Inception-ResNet 
and the impact of residual connections on learning [EB/OL]. 
(2016-08-23). https://arxiv.org/abs/1602.07261. 

[15] Srivastava R K, Greff K, Schmidhuber J. Highway networks [J]. arXiv 
preprint arXiv: 1505. 00387, 2015. 

[16] Srivastava R K, Greff K, Schmidhuber J. Training very deep networks 
[Cl/Advances in Neural Information Processing Systems. 2015: 
2377-2385. 

[17] Huang Gao, Liu Zhuang, Van Der Maaten L, et al. Densely connected 
convolutional networks [Cl]// Proc of IEEE Conference on Computer 
Vision and Pattern Recognition. Washington DC:IEEE Computer 
Society, 2017. 

[18] Hu Jie, Shen Li, Albanie S, et al. Squeeze-and-excitation networks 
[EB/OL]. (2018-10-25). https://arxiv.org/pdf/1709.01507.pdf. 


